模式识别与人工智能
2025年4月4日 星期五   首 页     期刊简介     编委会     投稿指南     伦理声明     联系我们                                                                English
模式识别与人工智能  2017, Vol. 30 Issue (10): 937-942    DOI: 10.16451/j.cnki.issn1003-6059.201710008
研究与应用 最新目录| 下期目录| 过刊浏览| 高级检索 |
基于句子级BLEU指标挑选数据的半监督神经机器翻译*
叶绍林,郭武
中国科学技术大学 语音及语言信息处理国家工程实验室 合肥 230027
Semi-supervised Neural Machine Translation Based on Sentence-Level BLEU Metric Data Selection
YE Shaolin, GUO Wu
National Engineering Laboratory for Speech and Language Information Processing, University of Science and Technology of China, Hefei 230027

全文: PDF (557 KB)   HTML (1 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 在单语语料的使用上,统计机器翻译可通过利用语言模型提高性能,而神经机器翻译很难通过这种方法有效利用单语语料.针对此问题,文中提出基于句子级双语评估替补(BLEU)指标挑选数据的半监督神经网络翻译模型.分别利用统计机器翻译和神经机器翻译模型对无标注数据生成候选翻译,然后通过句子级BLEU指标挑选单语候选翻译,加入到有标注的数据集中进行半监督联合训练.实验表明,文中方法能高效利用无标注的单语语料,在NIST汉英翻译任务上,相比仅使用精标的有标注数据单系统,文中方法BLEU值有所提升.
服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
叶绍林
郭武
关键词 半监督 句子级双语评估替补(BLEU) 神经机器翻译
    
Abstract:The performance of statistical machine translation is improved by language model. However, the monolingual corpus is not equal to be effectively used by neural machine translation. To solve this problem, a semi-supervised neural machine translation model based on sentence-level bilingual evaluation understudy(BLEU) metric data selection is proposed. The candidate translations for non-labeled data are firstly generated by statistical machine translation and neural machine translation models, respectively. Then the candidate translations are selected through sentence-level BLEU, and the selected candidate translations are added to the labeled dataset to conduct semi-supervised joint training. The experimental results demonstrate the effectiveness of the proposed algorithm in the usage of non-labeled data. In the NIST Chinese-English translation tasks, the proposed method obtains an obvious improvement over the baseline system only with the fine labeled data.
Key wordsSemi-supervise    Sentence-Level Bilingual Evaluation Understudy(BLEU)    Neural Machine Translation   
收稿日期: 2017-05-12     
ZTFLH: TP 391  
基金资助:国家重点研发计划专项项目(No.2016YFB1001303)资助
作者简介: 叶绍林,男,1993年生,硕士研究生,主要研究方向为机器翻译.E-mail:slye@mail.ustc.edu.cn.
郭 武(通讯作者),男,1973 年生,博士,副教授,主要研究方向为语音信号处理、自然语言处理.E-mail:guowu@ustc.edu.cn.
引用本文:   
叶绍林,郭武. 基于句子级BLEU指标挑选数据的半监督神经机器翻译*[J]. 模式识别与人工智能, 2017, 30(10): 937-942. YE Shaolin, GUO Wu. Semi-supervised Neural Machine Translation Based on Sentence-Level BLEU Metric Data Selection. , 2017, 30(10): 937-942.
链接本文:  
http://manu46.magtech.com.cn/Jweb_prai/CN/10.16451/j.cnki.issn1003-6059.201710008      或     http://manu46.magtech.com.cn/Jweb_prai/CN/Y2017/V30/I10/937
版权所有 © 《模式识别与人工智能》编辑部
地址:安微省合肥市蜀山湖路350号 电话:0551-65591176 传真:0551-65591176 Email:bjb@iim.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn